Авторы |
Ляпин Артур Мансурович, аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40),
lyapinartur@gmail.com
|
Аннотация |
Актуальность и цели. Объектом исследования являются короткие сообщения из общедоступных источников, таких как социальные сети, форумы, открытые SMS-сообщения, имеющие прикрепленные геоданные о положении пользовате-
ля в момент публикации сообщения. Предметом исследования является классификация коротких сообщений с помощью методов интеллектуального анализа данных и сравнительный анализ методов «ближайших соседей» и «наивного
Байеса». Цель работы – разработка методологии интеллектуального анализа данных, позволяющая классифицировать сообщения без предварительного обучения системы. Проведена экспериментальная проверка разработанной методо-
логии на наборе данных, полученных из социальных сетей, с целью выявления внештатных ситуаций в дорожно-транспортной инфраструктуре.
Материалы и методы. Исследования обработки коротких текстовых сообщений из общедоступных источников с целью классификации дорожных инцидентов выполнены посредством методов интеллектуального анализа данных. Наборы данных для экспериментальной системы взяты из тематических форумов, групп социальных сетей и новостных сайтов.
Результаты. Предложена методология на основе ансамбля методов интеллектуального анализа данных, позволяющая классифицировать короткие текстовые сообщения без предварительного обучения системы. Разработана компьютерная программа на основе предложенной методологии, классифицирующая данные из общедоступных источников и отображающая полученные сообщения с прикрепленными геоданными на карте г. Пензы.
Выводы. Сравнительный анализ двух методов обработки данных показал, что метод «ближайших соседей» позволяет достичь большей точности на тестируемом наборе данных по сравнению с методом «наивного Байеса». Также это подтверждает утверждения, что методы машинного обучения можно успешно применять для обработки коротких текстовых сообщений разного характера и в разных сферах. Наряду с этим было выявлено, что информация, получаемая из социальных сетей и SMS-сообщений, является ценной для определения реакции участников дорожного движения в режиме реального времени.
|
Список литературы |
1. Википедия [Электронный ресурс]. – URL: https://en.wikipedia.org/wiki/Main_Page (дата обращения: 14.01.2018).
2. ВКонтакте [Электронный ресурс]. – URL: https://vk.com (дата обращения: 10.01.2018).
3. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных “MachineLearning.ru”. – URL: http://www.machinelearning.ru (дата обращения: 16.01.2018).
4. Мерков, А. Б. Введение в методы статистического обучения / А. Б. Мерков. – Москва : Едиториал УРСС, 2011. – 254 с
5. Блог компании “Open Data Science”. – URL: https://habrahabr.ru/company/ods/ (дата обращения: 17.01.2018).
6. Марманис, Х . Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных / Х. Марманис, Д. Бабенко. – СПб. : Символ-Плюс, 2011. – 480 с.
|